大数据的实时处理和离线处理

发布时间:2018-08-04 阅读量:217

  数据存储已成为工作、生活中必不可少的一部分。中国目前的大数据时代发展迅速,传统的数据存储备份已无法满足用户的需求,而木桥比较常用的数据处理方式可分为实时处理和离线处理。

  

数据的分类

  一.实时处理:Flume+Kafka+Storm+Mongo

通过Flume进行数据的的采集,将数据推送给Kafka作为数据的缓存层,Storm作为kafka的消费者,从而进行实时的处理。最终,通过Web展示给前端,能够实时统计和分析车辆的在线总数,轨迹点总数,对此可以做一些相关的应用。


  数据来源:主要是Nginx 服务器获取的GPS数据和MSp数据格式都是JSON

  数据采集:通过Flume的拦截器对日志进行预处理,将数据存储在缓存层kafka

  数据统计:通过Storm实时拉取数据做计算,将临时结果数据存储在Redis

  数据落地:最终的数据存储在Mongo中,定时获取Redis中的数据,存储在Mongo

  Web展示:查询数据库定时更新前端页面,可以查看车辆的一些情况。

  二.离线处理:hadoop +hive

Hadoop分布式存储+分布式运算的框架,可以对海量数据进行统计分析,解决单节点极限性。

通过编写MapReduce可以批量统计某个地域的车辆里程情况、道路等级,通过速度判断车型、车辆驾驶情况等,使用Hive做数据仓库,可以统计最近一年或者两年的数据,进行数据的建模和历史数据的统计和分析。

常用的离线数据存储备份有磁盘、光盘库等存储方式。可有效的避免因为网络、黑客等原因造成的数据丢失等问题,更好的对数据进行了保护。更详细离线数据处理方案等咨询可致电成都吉福汇”,专业的技术和服务团队,为您提供专业的解决方案。

  400-028-4366/028-85538251